Обработка Unicode и эмодзи в коде

ОБЯЗАТЕЛЬНОДЛЯ НОВИЧКОВНЕ ДЛЯ НОВИЧКОВВ РАЗРАБОТКЕ

Всем

Обработка Unicode и эмодзи в коде

Вы когда-нибудь пробовали отправить другу смайлик «😁», а вместо него получили «��»? Или, может, обрезали сообщение ровно посередине, и последний смайлик рассыпался на каракули? Добро пожаловать в реальную жизнь программиста, работающего с текстом.

Основной принцип

Все символы в компьютере хранятся в виде чисел. Текст не существует отдельно от числовых кодов, которые его описывают.

Unicode — международный стандарт кодирования символов для текстовых данных и графических знаков. Он позволяет представлять знаки из любых письменностей мира в едином формате. Каждый символ имеет уникальную идентификационную точку, называемую кодовой точкой. Кодовая точка записывается в формате U+XXXX, где XXXX представляет шестнадцатеричное значение.

Эмодзи представляют собой стандартизированные графические пиктограммы в рамках Unicode. Они служат символами эмоций, объектов, действий или понятий в цифровой коммуникации. Консорциум Unicode выпускает обновления стандарта ежегодно с добавлением новых символов. По состоянию на 2026 год актуальная версия стандарта содержит более 3700 эмодзи в 15-й версии Unicode.

Каждый эмодзи имеет одну или несколько кодовых точек. Простой пример — 😀 соответствует U+1F600. Комплексные символы могут состоять из базового символа и модификаторов. Пример ❤️ состоит из сердечка U+2764 и вариационного селектора U+FE0F.

Размер байтов и длина строк

Проблема длины строки

Символы занимают разный объём памяти. Один символ может занимать 1, 2, 3 или 4 байта в зависимости от типа и сложности знака.

Таблица показывает распределение байтов по типам символов в UTF-8:

Тип символа	Количество байт	Диапазон кодировки	Пример
Базовые латинские	1	`U+0000` до `U+007F`	A, B, C, 1, 2, 3
Расширенная латинка	2	`U+0080` до `U+07FF`	`ñ`, `ü`, `é`
Иероглифы	3	`U+0800` до `U+FFFF`	`中`，`日`，`本`
Эмодзи и сложные	4	`U+10000` до `U+10FFFF`	😀, 🚀, ❤️

Программисты часто используют функции length() или len() для подсчёта количества символов в строке. Эти функции возвращают количество байтов, а не количество визуальных символов. При работе с Unicode возникает ошибка расчёта позиции среза строки.

text = "Hello 😀 World"
print(len(text))  # 13 байт
print(len("😀"))  # 4 байта в UTF-8

Первый элемент массива занимает один байт, второй — ещё один байт. Символ эмодзи занимает четыре байта. При обрезании строки по позиции программист видит смещение символов на три позиции больше ожидаемого значения.

Это приводит к неожиданным результатам при манипуляциях со строками. Функция среза берёт определённое количество байтов, а не символов. Отсечение последнего символа может оставить неполный код и вызвать ошибку декодирования.

Таблица соответствия кодовых точек

Название символа	Кодовая точка	Шестнадцатеричное	Байты	Пример
Latin Capital A	`U+0041`	`0x41`	`1`	`A`
Euro sign	`U+20AC`	`0x20AC`	`3`	`€`
White smiling face	`U+1F60A`	`0x1F60A`	`4`	`☺`
Heart	`U+2764`	`0x2764`	3	❤
Thumbs up	`U+1F44D`	`0x1F44D`	4	👍
Japanese Kanji `中`	`U+4E2D`	`0x4E2D`	3	`中`

Проблемы кодировки файлов

Крокозябры текста

Неправильная кодировка вызывает отображение случайных символов вместо читаемого текста.

Файлы сохраняются в конкретных форматах кодировки. Стандарты включают ASCII, Windows-1251, ISO-8859-1, UTF-8, UTF-16 и другие. Каждая кодировка определяет соответствие между числовыми значениями и визуальными знаками. Программа читает файл с определённой кодировкой. Если файл сохранён в Windows-1251, а программа открывает его как UTF-8, результат будет непредсказуем.

Пример проявления ошибки. Сохраняется текст в Windows-1251. Открывается через редактор с настройкой UTF-8.

Правильно: Привет мир!
Ошибка: Ð¿Ñ€Ð¸Ð²ÐµÑ‚ Ð¼Ð¸Ñ€,!

Причина заключается в том, что каждая кодировка использует разные диапазоны значений. Латинские символы ASCII совпадают во многих кодировках. Кириллические символы имеют разные коды в разных системах. Компилятор интерпретирует байты как индексы к таблице символов выбранной кодировки.

Эмодзи в веб-разработке

Для корректного отображения эмодзи на сайте требуется соблюдение нескольких условий. Все HTML-файлы должны быть закодированы в UTF-8. Мета-тег <meta charset="UTF-8"> указывает браузеру правильный формат кодировки страницы. Этот тег размещается внутри тега <head> документа.

<!DOCTYPE html>
<html lang="ru">
<head>
    <meta charset="UTF-8">
    <title>Страница с эмодзи</title>
</head>
<body>
    <h1>Заголовок с эмодзи 👋</h1>
    <p>Текст сообщения 📩</p>
</body>
</html>

База данных также требует правильной настройки. MySQL использует стандарт utf8, который поддерживает только 3 байта. Эмодзи занимают 4 байта. Решение — использовать utf8mb4 для колонок базы данных PostgreSQL поддерживает полное UTF-8 с помощью параметра UTF8.

CREATE TABLE users (
    id INT PRIMARY KEY,
    name VARCHAR(100),
    avatar TEXT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci
);

Вставка эмодзи в код осуществляется двумя способами. Первый метод — прямое копирование символа в файл. Второй способ — использование HTML-мнемоник. Мнемоники представляют символ в виде числового значения кодовой точки.

HTML мнемоники обеспечивают переносимость кода. Не все редакторы сохраняют специальные символы корректно. Числовые представления работают одинаково на всех платформах.

Отключение автоматического преобразования символов в цветные эмодзи используется для сохранения текстового стиля. Браузер отображает некоторые символы как графику автоматически. CSS свойство content-visibility может контролировать этот процесс.

Влияние на поиск и кликабельность

Поисковые системы индексируют эмодзи в контенте. Избыточное использование эмодзи воспринимается поисковиками как низкое качество контента. Оптимальное соотношение составляет 1–2 эмодзи в заголовке и 3–4 эмодзи в основном тексте статьи.

Переизбыток эмодзи влияет на кликабельность результатов поиска. Пользователи воспринимают избыточные эмодзи как рекламу или спам. Это снижает вероятность перехода по ссылке. Точка зрения Google говорит о том, что поисковики не наказывают за эмодзи напрямую. Однако метрики взаимодействия снижаются при избыточном украшении текста.

Искусственный интеллект генерирует текст с эмодзи. Нейросети получают инструкции для использования символа эмоциональности. Рекомендуется удалять эмодзи из кода после генерации текста. Использование шаблона запрещает добавление эмодзи. Это повышает совместимость с системами обработки текста.

Как удалить эмодзи из текста с помощью регулярных выражений?

Python предоставляет библиотеку regex для обработки эмодзи. Стандартное выражение [\u{1F600}-\u{1F64F}] захватывает диапазон улыбающихся лиц. Можно расширить диапазон для охвата всех групп эмодзи.

import regex

emoji_pattern = regex.compile(r'[^\x00-\x7F]+', regex.UNICODE)
text = "Привет! 😃 Мир 🌍"
clean_text = emoji_pattern.sub('', text)

JavaScript использует похожий подход. Регулярное выражение /[\u{1F600}-\u{1F64F}\u{1F300}-\u{1F5FF}\u{1F680}-\u{1F6FF}\u{1F700}-\u{1F77F}\u{1F780}-\u{1F7FF}\u{1F800}-\u{1F8FF}\u{1F900}-\u{1F9FF}\u{1FA00}-\u{1FA6F}\u{1FA70}-\u{1FAFF}\u{2600}-\u{26FF}\u{2700}-\u{27BF}]/gu фильтрует эмодзи.

Доступность и альтернативные тексты

Альтернативный текст для скринридеров

Скринридеры проговаривают описание символа вслух. Важно указать понятное имя для каждого изображения.

Скринридеры произносят название символа при чтении текста вслух. Люди с нарушениями зрения пользуются этими программами для навигации по сайту. Экраны считывают эмотикон как набор букв или слов. Описание должно быть ясным и информативным.

<img src="flag.png" alt="Флаг России">

Кнопка с эмодзи требует описания в атрибуте aria-label. Контент страницы должен быть доступен пользователям с ограниченными возможностями. Атрибут alt для изображений выполняет аналогичную функцию. Текст должен передавать смысл символа без потери информации.

<button aria-label="Отправить сообщение 📩">
    <img src="send.svg" alt="">
</button>

Обработка Unicode в языках программирования

Таблица ниже показывает поддержку Unicode в популярных языках программирования:

Язык	Поддержка Unicode	Примечание
Python 3	Полная	Все строки — Unicode объекты
JavaScript	Полная	Строки используют UTF-16
Java	Полная	String — Unicode, но внутренний код UTF-16
C#	Полная	string — Unicode
PHP	Частичная	Требуется поддержка mbstring
Go	Полная	Rune — Unicode символы
Rust	Полная	char — Unicode скалярное значение

Python 3 использует Unicode по умолчанию. Строки содержат символы Unicode. Функция ord() возвращает кодовую точку символа. Функция chr() создаёт символ по коду.

char = "😀"
print(ord(char))      # 128514
print(chr(128514))    # 😀
print(hex(ord(char))) # 0x1f600

JavaScript использует кодировку UTF-16. Каждое значение в строке занимает 2 байта. Многобайтовые символы кодируются парами surrogate pairs. Для получения кодовой точки нужно использовать codePointAt().

const str = "😀";
console.log(str.codePointAt(0));  // 128514
console.log(String.fromCodePoint(128514));  // 😀

Java строки используют UTF-16 кодировку. Метод charAt() возвращает символ как int. Для получения полного кода точки нужен codePointAt().

String s = "😀";
int cp = s.codePointAt(0);
System.out.println(cp);  // 128514

C# предоставляет класс Rune в .NET 6+. Класс обрабатывает Unicode элементы правильно.

var rune = new Rune('😀');
Console.WriteLine(rune.Value);  // 128514

PHP требует подключения библиотеки mbstring для корректной работы. Функция mb_strlen() считает символы, а не байты. Функция iconv() конвертирует кодировки.

echo mb_strlen("👋", "UTF-8");  // 1 символ, а не 4 байта

Go использует типы byte и rune. byte — однобайтовый символ. rune — код Unicode точки.

package main
import "fmt"
func main() {
    r := '😀'
    fmt.Printf("%d %c\n", r, r)
}

Rust использует char для Unicode скалярных значений. Тип данных char всегда занимает 4 байта.

fn main() {
    let c = '😀';
    println!("{}", c);  // 😀
}

Обработка Unicode и эмодзи в коде